The security of artificial intelligence (AI) is an important research area towards safe, reliable, and trustworthy AI systems. To accelerate the research on AI security, the Artificial Intelligence Security Competition (AISC) was organized by the Zhongguancun Laboratory, China Industrial Control Systems Cyber Emergency Response Team, Institute for Artificial Intelligence, Tsinghua University, and RealAI as part of the Zhongguancun International Frontier Technology Innovation Competition (https://www.zgc-aisc.com/en). The competition consists of three tracks, including Deepfake Security Competition, Autonomous Driving Security Competition, and Face Recognition Security Competition. This report will introduce the competition rules of these three tracks and the solutions of top-ranking teams in each track.
translated by 谷歌翻译
We present a strong object detector with encoder-decoder pretraining and finetuning. Our method, called Group DETR v2, is built upon a vision transformer encoder ViT-Huge~\cite{dosovitskiy2020image}, a DETR variant DINO~\cite{zhang2022dino}, and an efficient DETR training method Group DETR~\cite{chen2022group}. The training process consists of self-supervised pretraining and finetuning a ViT-Huge encoder on ImageNet-1K, pretraining the detector on Object365, and finally finetuning it on COCO. Group DETR v2 achieves $\textbf{64.5}$ mAP on COCO test-dev, and establishes a new SoTA on the COCO leaderboard https://paperswithcode.com/sota/object-detection-on-coco
translated by 谷歌翻译
从单眼RGB图像中重建3D手网络,由于其在AR/VR领域的巨大潜在应用,引起了人们的注意力越来越多。大多数最先进的方法试图以匿名方式解决此任务。具体而言,即使在连续录制会话中用户没有变化的实际应用程序中实际上可用,因此忽略了该主题的身份。在本文中,我们提出了一个身份感知的手网格估计模型,该模型可以结合由受试者的内在形状参数表示的身份信息。我们通过将提出的身份感知模型与匿名对待主题的基线进行比较来证明身份信息的重要性。此外,为了处理未见测试对象的用例,我们提出了一条新型的个性化管道来校准固有的形状参数,仅使用该受试者的少数未标记的RGB图像。在两个大型公共数据集上进行的实验验证了我们提出的方法的最先进性能。
translated by 谷歌翻译
图像注册广泛用于医学图像分析中,以提供两个图像之间的空间对应关系。最近提出了利用卷积神经网络(CNN)的基于学习的方法来解决图像注册问题。基于学习的方法往往比基于传统优化的方法快得多,但是从复杂的CNN方法中获得的准确性提高是适度的。在这里,我们介绍了一个新的基于深神经的图像注册框架,名为\ textbf {mirnf},该框架代表通过通过神经字段实现的连续函数的对应映射。 MIRNF输出的变形矢量或速度向量给定3D坐标为输入。为了确保映射是差异的,使用神经ODE求解器集成了MiRNF的速度矢量输出,以得出两个图像之间的对应关系。此外,我们提出了一个混合坐标采样器以及级联的体系结构,以实现高相似性映射性能和低距离变形场。我们对两个3D MR脑扫描数据集进行了实验,这表明我们提出的框架提供了最新的注册性能,同时保持了可比的优化时间。
translated by 谷歌翻译
公平的机器学习旨在避免基于\ textit {敏感属性}(例如性别和种族)对个人或子人群的治疗。公平机器学习中的那些方法是基于因果推理确定的歧视和偏见的。尽管基于因果关系的公平学习吸引了越来越多的关注,但当前的方法假设真正的因果图是完全已知的。本文提出了一种一般方法,以实现反事实公平的概念时,当真实的因果图未知。为了能够选择导致反事实公平性的功能,我们得出了条件和算法,以识别\ textit上变量之间的祖先关系{部分定向的无循环图(pdag)},具体来说,可以从一类可学到的dag中学到。观察数据与域知识相结合。有趣的是,我们发现可以实现反事实公平,就好像真正的因果图是完全知道的一样,当提供了特定的背景知识时:敏感属性在因果图中没有祖先。模拟和实际数据集的结果证明了我们方法的有效性。
translated by 谷歌翻译
差异图像注册是医学图像分析中的至关重要任务。最近基于学习的图像注册方法利用卷积神经网络(CNN)学习图像对之间的空间转换并达到快速推理速度。但是,这些方法通常需要大量的培训数据来提高其概括能力。在测试时间内,基于学习的方法可能无法提供良好的注册结果,这很可能是因为培训数据集的模型过于拟合。在本文中,我们提出了连续速度场(NEVF)的神经表示,以描述两个图像之间的变形。具体而言,该神经速度场为空间中的每个点分配了一个速度向量,该速度在对复杂变形场进行建模时具有更高的灵活性。此外,我们提出了一种简单的稀疏抽样策略,以减少差异注册的记忆消耗。提出的NEVF还可以与预先训练的基于学习的模型合并,该模型的预测变形被视为优化的初始状态。在两个大规模3D MR脑扫描数据集上进行的广泛实验表明,我们提出的方法的表现优于最先进的注册方法。
translated by 谷歌翻译
实现通用语言情报是自然语言处理的长期目标,标准评估基准发挥基本和指导作用。我们认为,对于通用语言智能评估,基准本身需要全面和系统。为此,我们提出了Cuge,一种中文语言理解和生成评估基准,具有以下特征:(1)分层基准框架,其中数据集主要选择和组织语言能力 - 任务数据集层次结构。 (2)多级评分策略,其中基于分层框架提供了不同级别的模型性能。为了促进CUGE,我们提供了一个公共排行榜,可以自定义,以支持灵活的模型判断标准。代表性预先训练的语言模型的评估结果表明了对通用语言智能的完善的充足空间。 Cuge在Cuge.baai.ac.cn上公开提供。
translated by 谷歌翻译
远程时间对齐至关重要,但对视频恢复任务有挑战性。最近,一些作品试图将远程对齐分成几个子对齐并逐步处理它们。虽然该操作有助于建模遥控对应关系,但由于传播机制,误差累积是不可避免的。在这项工作中,我们提出了一种新颖的通用迭代对准模块,其采用逐渐改进方案进行子对准,产生更准确的运动补偿。为了进一步提高对准精度和时间一致性,我们开发了一种非参数重新加权方法,其中每个相邻帧的重要性以用于聚合的空间方式自适应地评估。凭借拟议的策略,我们的模型在一系列视频恢复任务中实现了多个基准测试的最先进的性能,包括视频超分辨率,去噪和去束性。我们的项目可用于\ url {https:/github.com/redrock303/revisiting-temporal-alignment-for-video-Restion.git}。
translated by 谷歌翻译
对话语义作用标签(CSRL)被认为是对话理解的关键步骤。但是,对于现有的CSRL解析器来处理会话结构信息仍然是一个重大挑战。在本文中,我们为CSRL提出了一个简单有效的架构,旨在解决这个问题。我们的模型基于对话结构感知的图形网络,该图网络网络明确地编码了扬声器相关信息。我们还提出了一种多任务学习方法来进一步改进模型。基准数据集的实验结果表明,我们的模型与我们建议的培训目标显着优于以前的基准。
translated by 谷歌翻译
在视觉上丰富的文件(VRD)上的结构化文本理解是文档智能的重要组成部分。由于VRD中的内容和布局的复杂性,结构化文本理解是一项有挑战性的任务。大多数现有的研究将此问题与两个子任务结尾:实体标记和实体链接,这需要整体地了解令牌和段级别的文档的上下文。但是,很少的工作已经关注有效地从不同层次提取结构化数据的解决方案。本文提出了一个名为structext的统一框架,它对于处理两个子任务是灵活的,有效的。具体地,基于变压器,我们引入了一个段令牌对齐的编码器,以处理不同粒度水平的实体标记和实体链接任务。此外,我们设计了一种具有三个自我监督任务的新型预训练策略,以学习更丰富的代表性。 Structext使用现有屏蔽的视觉语言建模任务和新句子长度预测和配对框方向任务,以跨文本,图像和布局结合多模态信息。我们评估我们在分段级别和令牌级别的结构化文本理解的方法,并表明它优于最先进的同行,在Funsd,Srie和Ephoie数据集中具有显着优越的性能。
translated by 谷歌翻译